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Zusammenfassung In Anlehnung an den schwedischen Satztest nach Hagerman (Hagerman 1984) wurde ein deutscher Satztest 
entwickelt (Wagener et al. 1999b). Jeder Satz dieses »Oldenburger Satztests« besteht aus fünf Wörtern, die jeweils zufällig aus 10 
Alternativen ausgewählt wurden. In vorhergehenden Beiträgen (Wagener er al. 1999b, 1999a) wurde auferund von ersten Messun- 
een mit der Auswahl von 10 Testlisten das Testinventar des Oldenburger Satztests festeeleer. In diesem Beitrag werden nun die 
theoretischen Erwartungen durch unabhängige Evaluationsmessungen mit Normalhörenden überprüft. Die Erwartungen werden 
größtenteils bestätigt: Der Lọ (Signal-Rausch-Verhältnis, bet dem 50 % verstanden wurde) beträgt -7,1 dB S/N mit einer geringen 
Strandardabweichune zwischen den Testlisten von 0,16 dB S/N. Der aufgrund von Messungen mit stärker trainierten Versuchsperso- 
nen erwartete Wert war -8,4 dB S/N (vel. Wagener et al. 1999a). Die Steigung stimmt mit 17,1 %/dB (Standardabweichung 1,6 %/dB) 
mit der erwarteten von 17,2 %/dB überein. Die geringen Streuungen sowie der mit dem Friedman-Test nicht nachweisbare Unter- 
schied zwischen den Listen bestätigen die perzeptive Äquivalenz der Testlisten. Die Vorhersagbarkeit der Särze (ausgedrückt durch 
die Anzahl der statistisch unabhängigen Teile eines Satzes j) ist, wie auferund des von Hagerman angegebenen Wertes von | =4 
(Hagerman 1996) erwartet, sehr gering (j = 4,29 für -5 dB S/N und j = 3,18 für -9 dB S/N). Der Trainingseffekt beträgt I bis 2 dB S/N 
und kann durch Darbieten einer bis zwei Ubungslisten auf weniger als 1 dB S/N begrenzt werden. 


Insgesamt bietet sich der Oldenburger Satztest daher als innovatives, valides und reliables Testverfahren für die klinische Audio- 
logie an. 
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Development and evaluation 
of a German sentence test 
Part Ill: Evaluation of the 
Oldenburg sentence test 


Kirsten Wagener, Thomas Brand, Birger Kollmeier 
AG Medizinische Physik, Universität Oldenburg, D-26111 Oldenburg 


Summary A German sentence test described in companion papers (Wagener et al. 1999b, 1999a) is evaluated with respect to the 
performance in normal listeners, the redundancy of the material and the equivalence of the test lists. Similar to the Swedish test 
proposed by Hagerman (Hagerman 1984), each sentence of the »Oldenburger Satztest« is composed of a pseudo-random selection 


of five words taken from a list of 10 alternatives. 


This study compares theoretical expectations that are based on preliminary experiments and are described in Wagener et al. 
(1999a) with independent evaluation measurements with normal-hearing subjects. For the most part, our expectations were confirmed: 
the speech reception threshold Ls, (speech level that corresponds to 50 % intelligibility) was -7.1 dB S/N with a small standard 
deviation of 0.16 dB across the test lists. The slope was to 17.1 %/dB (standard deviation: 1.6 %dB) and matched the expected slope 
of 17.2 %/dB. The small standard deviations and lack of differences across lists (Friedman test) show the equivalence in intelligibility 
of the test lists. The redundancy of the sentences (described by number 3 of the statistically independent elements per sentence) was 
very low (j = 4.29 at -5 dB S/N and j = 3.18 at -9 dB S/N), which was expected because of the value j =4 given by Hagerman 
(Hagerman 1996). The learning effect was I-2 dB and can be reduced to less than I dB if one or two training lists are performed 


prior to data collection. 


It may hence be concluded that the Oldenburg sentence test ts an innovative, valid and reliable test procedure for audiology. 


Keywords: speech audiometry 
speech intelligibility 
evaluation 
precision of measurement 
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Einleitung 


Der in den vorhergehenden Beiträgen (Wagener et al. 1999b, 
1999a) vorgestellte Oldenburger Satztest soll eine Lücke in der 
Sprachaudiometrie schließen und ein effizientes, nicht von der 
Wahl der Testliste abhängiges Verfahren für die Bestimmung der 
Sprachverständlichkeit im Störgeräusch mit einer großen Anzahl 
an wiederholbaren Testlisten bereitstellen. In Anlehnung an den 
schwedischen Satztest nach Hagerman (Hagerman 1984) besteht 
jeder Satz der Form Name-Verb-Zahlwort-Adjektiv-Objekt aus 
einer (pseudo-) zufälligen Auswahl der einzelnen Testwörter, für 
die jeweils 10 Alternativen zur Verfügung stehen. Die Phonem- 
verteilung des Sprachmaterials entspricht der mittleren Phonem- 
vertetlung der deutschen Sprache (vel. Wagener et al. 1999b), 
Im Gegensatz zu dem Marburger Satztest (Niemeyer 1967) und 
dem Göttinger Satztest (Kollmeier und Wesselkamp 1997) kann 
der Test daher beliebig oft mit derselben Versuchsperson wie- 
derholt durchgeführt werden. In diesem Artikel werden die we- 
sentlichen Eigenschaften des Tests mit einem unabhängigen Ver- 
suchspersonenkollektiv untersucht und mit den aus theoretischen 
Überlegungen und vorherigen Messungen getroffenen Erwartun- 
gen verglichen (Vergleichbarkeit der Testlisten, Form der Dis- 
kriminationsfunktion, Vorhersagbarkeit der Sätze). Dadurch soll 
geklärt werden. ob der Test den an ihn gestellten Anforderungen 
(siehe oben sowie Wagener et al. 1999b) genügt. 


Die Messungen zur Optimierung der Testlisten (Wagener et al. 
1999a) sind mit hochgradig trainierten Versuchspersonen durch- 
geführt worden, die Homogenität der Listen soll jedoch auch bei 
den klinischen Anwendungen mit naiven Probanden gewährlei- 
stet sein. Dies ist von großer Bedeutung für die praktische An- 
wendbarkeit des Tests, weil die Testergebnisse weitestgehend 
unabhängig von der jeweils eingesetzten Testliste immer densel- 
ben Wert liefern sollen. Aufgrund der vorherigen Messungen 
wurden die Listen so zusammengestellt, daß diese Voraussetzung 
erfüllt ist. Um dieselbe Aussage auch für ein unabhängiges. der 
klinischen Population eher entsprechendes Versuchspersonenkol- 
lektiv machen zu können, werden die Testlisten mit einer Grup- 
pe größtenteils in Sprachverständlichkeitsmessungen unerlahre- 
nen Versuchspersonen evaluiert. Dadurch können Normwerte für 
die praktische audiologische Anwendung gegeben werden, 


In der Literatur sind Evaluationsmessungen mit naiven Pro- 
banden nur für den Göttinger Satztest (Kollmeier und Wessel- 
kamp 1997) beschrieben. Bei anderen Tests, wie z. B. dem Frei- 
burger oder Marburger Test, wurde die perzeptive Äquivalenz 
der Listen nicht evaluiert. Das hat zur Folge, dab die gemessene 
Verständlichkeit von der verwendeten Testliste abhängt und so 
das Mebergebnis durch die Wahl der Testliste beeinflußt werden 
kann. 
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Im folgenden werden die Evaluationsmessungen mit 20 Nor- 
malhörenden vorgestellt. Der Trainingseffekt wird zunächst durch 
adaptive Messungen des Ls (d. h. des zu 50 % Sprachverständ- 
lichkeit gehörenden Signal-Rausch-Verhältnisses) bestimmt. 
Durch darauffolgende Messungen bei konstanten Signal-Rausch- 
Verhältnissen werden die Verständlichkeiten der einzelnen Test- 
listen ermittelt, um die Äquivalenz der Listen zu überprüfen. 
Zusätzlich werden dıe Messungen in Bezug auf die Vorhersag- 
barkeit des Satzmaterials ausgewertet. Die Evaluationsmessun- 
gen wurden mit den I2 in Wagener et al. (1999a) ausgewählten 
Listen durchgeführt (10 Testlisten und 2 Trainingslisten). Im 
Folgenden werden die Auswertungen jedoch nur für die 10 Test- 
listen durchgeführt. Lediglich bei der Messung des Trainingsel- 
fekts werden — bedingt durch das adaptive Meßverfahren — alle 
[2 gemessenen Listen berücksichtigt. 


Methode 


Die 12 Testlisten à 10 Sätze wurden mit 20 normalhörenden 
Versuchspersonen evaluiert. Die Listen wurden zur Verkürzung 
der Meßzeit in sechs Doppellisten aus 20 Sätzen zusammenge- 
falit, dieses Vorgehen führt zu einer Mebzeit von ca. 5 min pro 
Doppelliste. Die Messungen wurden in einer schallisolierten 
Hörkabine mit einer im Rahmen eines Verbundprojekts zur 
Sprachaudiometrie entwickelten Apparatur durchgeführt (Koll- 
meier et al. 1992): Uber einen Pentium PC mit einer Ariel DSP 
32C-Karte (mit 16 bit AD-DA-Wandlern) wurde der gesamte 
Mebvorgang gesteuert. Die Sprachsignale sowie das Störgeräusch 
lagen digital auf einer Festplatte vor (mit 25 kHz Samplingfre- 
quenz und 16 bit Auflösung). Die Darbietungspegel wurden über 
ein computergesteuertes Audiometer (im Rahmen des oben er- 
wähnten Projekts entwickelt, siehe Kollmeier et al. 1992) einge- 
stellt, über den Signalprozessor wurde das Sprachsignal und das 
Rauschen im gewünschten Signal-Rausch-Verhaltnis gemischt. 
Die Testsignale wurden den Versuchspersonen diotisch über ei- 
nen breitbandig kalibrierten Kopfhörer des Typs Sennheiser HDA 
200 dargeboten. Die Probanden hatten die Aufgabe, die von th- 
nen verstandenen Sätze oder Satzteile dem Versuchsleiter zu wie- 
derholen. Dieser markierte jedes falsch wiedergegebene Wort auf 
dem berührungsempfindlichen Bildschirm eines Handheld-Com- 
puters Epson ETHIOS (dort wurden alle Wörter des Satzes dar- 
gestellt). Über eine serielle Schnittstelle wurden die Antworten 
an den Meßcomputer weitergeleitet und dort für die weiteren 
Auswertungen gespeichert. Als Störgeräusch wurde das von 
Wagener et al. (1999b) beschriebene »Oldenburger Rauschen« 
bei einem konstanten Pegel von 65 dB SPL verwendet. 


An den Messungen nahmen 20 Versuchspersonen (14 Män- 
ner, 6 Frauen) im Älter von 23 bis 42 Jahren (mittleres Alter 29 
Jahre) teil. Sie zeigten aufgrund des Tonaudiogramms und ihrer 
Höranamnese keine klinischen Auffälligkeiten. Vier dieser Pro- 
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banden waren ähnlichen Testsituationen vertraut (Mitglieder der 
Arbeitsgruppe »Medizinische Physik« an der Carl von Ossietz- 
ky-Universität Oldenburg), die restlichen (bezahlten) Personen 
waren auf diesem Gebiet unerfahren. 


Um bei allen Versuchspersonen den gleichen Trainingsgrad 
zu erzielen und gleichzeitig Informationen über den Trainingsef- 
fekt zu erhalten, wurde zunächst innerhalb einer halben Stunde 
der L..-Wert jeder Doppelliste adaptiv gemessen. Es wurde da- 
bei als adaptive Pegelsteuerung das von Brand (1994) verallge- 
meinerte Verfahren nach Hagerman und Kinnefors (1993) ver- 
wendet. Die Schrittweite zum nächstfolgenden Darbietungspe- 
gel wird aus der vorangehenden Antwort wie folgt berechnet: 
AL- = LI „ wobei SV die Satzverständlichkeit des vor- 
hergehenden Satzes, T die Ziel-Richtig-Antwort-Wahrscheinlich- 
keit (in diesem Fall 50 %), m die Steigung und f; die »Geschwin- 
digkeit« der Steuerung ist, diese beträgt zu Beginn der Messung 
2, halbiert sich nach dem 1. Wendepunkt zu | und nach dem 2. 
Wendepunkt zu 0,5. 


Die Listen wurden den Versuchspersonen in unterschiedli- 
cher Reihenfolge dargeboten. Nach einer ca. 10 bis 15 min Pau- 
se wurden die eigentlichen Evaluationsmessungen durchgeführt. 


Die 20 Personen wurden in zwei Gruppen unterteilt. Der ei- 
nen Gruppe wurden die Testlisten | bis 6 (Doppellisten | bis 3) 
bei einem konstanten Signal-Rausch-Verhältnis von -5 dB S/N 
und die Listen 7 bis 12 (Doppellisten 4 bis 6) bei -9 dB S/N dar- 
geboten, der anderen Gruppe genau umgekehrt. Die Listen wur- 
den jeweils in unterschiedlicher Reihenfolge gemessen, die bei- 
den Signal-Rausch-Abstinde wurden immer abwechselnd dar- 
geboten. Weiter ausgewertet wurden nur die 10 Testlisten, ob- 
wohl auch die 2 Trainingslisten mit gemessen wurden (diese wur- 
den jedoch aus dem Testinventar wegen zu hoher Standardab- 
weichung der wortspezifischen L,,-Werte gestrichen). Es wurde 
jeweils die Verständlichkeit der gesamten Liste sowie der einzel- 
nen Sätze und Wörter besummt, um Aussagen über die Eigen- 
schaften der Testlisten zu erhalten und die Vorhersagbarkeit der 
Sätze (als Mab wird der j Faktor verwendet: 7 = en. Ps :Wahr- 
scheinlichkeit, daß ein Satz komplett verstanden wurde, p,: Wahr- 
scheinlichkeit, daß ein Wort richtig verstanden wurde; siehe auch 
Boothroyd und Nitrrouer 1988) zu bestimmen. 


Ergebnisse 
Trainingseffekt 


Die adaptıven L,,-Messungen, die vor den Evaluationsmes- 
sungen durchgeführt wurden, um einen einheitlichen Trainings- 
grad aller Versuchspersonen zu erhalten. wurden zur Abschät- 
zung des Trainingseffekts ausgewertet. In Abbildung | ist der 
über alle 12 Versuchspersonen arıthmetisch gemittelte L.,-Wert 
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mit der Standardabweichung über der Nummer der Messung auf- 
getragen. Die Nummer identifiziert nicht die Testliste, sondern 
die Reihenfolge der Messung (Messung Nr. | beinhaltet alle Li- 
sten, die am Anfang gemessen wurden). Zusätzlich ist der mitt- 
lere Ls der darauffolgenden Evaluationsmessungen angegeben. 
Da die Listen immer in unterschiedlicher Reihenfolge dargebo- 
ten wurden, sind die L.,-Werte aus Abb. 1 unabhängig von mög- 
lichen Unterschieden zwischen den Testlisten. Das zeigt auch 
Abbildung 2, auf der die mittleren L.,-Werte der adaptıven Mes- 
sungen über den einzelnen Testlisten dargestellt sind. Da der Trai- 
ningseffekt in diese Messungen eingeht, resultieren relativ große 
Standardabweichungen. Zwischen den ersten beiden dargebote- 
nen Listen ergibt sich aus Abb. | ein Unterschied im Ls, von 
| dB S/N, die Differenzen zwischen den darauffolgenden Listen 
sind jeweils kleiner als 0,5 dB S/N. Dies entspricht etwa der Ge- 
nauigkeit, mit der die Verständlichkeitsschwelle im adaptiven Ver- 
fahren bestimmt wird. Dieser Trainingseffekt kann durch Gewöh- 
nung der Versuchspersonen an das Meßverlahren erklärt wer- 
den, da sie größtenteils vor diesem Experiment an keinen Sprach- 
verständlichkeitsmessungen teilgenommen haben. Nach zwei 
gemessenen Listen ist ihnen der formale Aufbau der Sätze be- 
wußt (fünf Wörter, Satzbau: Name-Verb-Zahl-Adjektiv-Objekt), 
was ebenfalls zu einer besseren Verständlichkeit führt. Insgesamt 
zeigt sich über alle sechs Messungen hinweg ein Lerneflekt von 
| bis 2 dB S/N, der im wesentlichen während der ersten beiden 
Listen stattfindet. Die Abweichungen des Unterschieds zwischen 
5. und 6. Messung vom Unterschied zwischen der 3. und 4. so- 
wie 4. und 5. Messung sind jedoch nicht signifikant. Der mittlere 
L..der Testlisten, der durch die Evaluationsmessungen bestimmt 
wurde (siehe unten), beträgt -7.1 dB S/N. Damit ister gleich dem 
mittleren Ls der 6. adaptıven Messung. Über die 6 Messungen 
mit konstantem Signal-Rausch-Verhältnis ergab sich demnach 
kein weiterer Lerneffekt. Damit kann der Lerneffekt mit maxi- 
mal 2 dB S/N nach oben hin abgeschätzt werden, | dB S/N da- 
von treten innerhalb der ersten beiden Testdurchgänge auf. Um 
einen Tramingseffekt sicher auszuschließen, sollten in der Pra- 
xis jeweils ein bis zwei Ubungslisten (d. h. je nach Genauigkeits- 
anforderungen bis zu 60 Sätze) vorweg gemessen werden. 


Die Messungen zur Optimierung des Testmaterials aus Wa- 
gener et al. (1999a) ergaben einen mittleren L.,, von -8.4 dB S/N. 
Er liegt um ca. | dB S/N niedriger als der L, der bei den adapti- 
ven Messungen zuletzt gemessene. Der Unterschied kann darauf 
zurückgeführt werden, dab die Versuchspersonen zur Bestim- 
mung der wortspezifischen Diskriminationsfunktionen (Mitglie- 
der der Arbeitsgruppe) in Sprachverständlichkeitsmessungen 
hochgradig trainiert waren und das verwendete Wortmaterial 
kannten. 


Unterschiede in der Verständlichkeit der Testlisten 


Um die in Wagener et al. (1999a) theoretisch berechneten 
Eigenschaften der Testlisten (Ls und m, Signal-Rausch-Verhält- 
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mean L son dB S/N 


1 2 3 4 5 6 
Measurement No. 


Abb. 1: Darstellung des Trainingseffekts: Mittlere Ls- Werte 
aller Versuchspersonen (mit Standardabweichungen) in 
Abhängigkeit von der Darbietungsreihenfolge, L zeigt den 
mittleren L,,-Wert der Evaluationsmessungen. 


L eva 


Fig. l: Assessment of the training effect: Mean speech 
reception thresholds of all subjects (Ly, with standard 
deviations) as a function of the temporal order of performing 
the measurements. The abcissa denotes the number of the 
adaptive measurement track (using a double list of 20 
sentences each) performed as practice runs prior to the 
evaluation measurements, L, „denotes the mean Ly of the 
subsequent evaluation measurements. Note that each subject 
was trained with a different sequence of test lists. 


nis, bei dem 50 % verstanden wurde und Steigung der Gesamt- 
Diskriminationsfunktion am Ls) praktisch zu überprüfen, wur- 
den die Evaluationsmessungen wie folgt ausgewertet: 

Für jede Testliste wurden die Verständlichkeiten aller 10 Ver- 
suchspersonen pro Signal-Rausch-Verhältnis gemittelt. Daraus re- 
sultierten für jede Liste zwei Meßpunkte bei einer Darbietung von 
-5 und -9 dB S/N. Durch Einsetzen dieser beiden Punkte in die lo- 
eistische Funktion, die als Modellfunktion die Diskriminationsfunk- 
tion (Abhängigkeit der Verständlichkeit vom Signal-Rausch-Ver- 
hältnıs) nachbildet: f{x) = reat =e} (vgl. Wagener et al. 1999a) 
erhält man die zugehörenden Parameter Ls und m, = Fr der Test- 
liste. Tabelle | zeigt die so erhaltenen Ergebnisse. 


Für die 10 Testlisten wird erwartet, daß sie hinsichtlich ihrer 
Sprachverständlichkeit äquivalent sind. Um diese Äquivalenz 
nachzuweisen, wird ein indirektes Verfahren verwendet: Die 
Meßergebnisse wurden für die beiden Signal-Rauschabstände -5 
und -9 dB S/N einer Rangvarianzanalyse nach Friedman (Sachs 
1992) unterzogen. Zum Prüfen der Nullhypothese (alle Bedin- 


90) 


gungen entstammen einer Grundgesamtheit: Alle Testlisten lie- 
fern äquivalente Ergebnisse bei der Messung der Sprachverständ- 
lichkeit) hat Friedman die Priifgrobe VR angegeben. Bei Errei- 
chen oder Überschreiten der für gegebene n Stichproben und A 
Bedingungen tabellierten Schrankenwerte x kann die Nullhy- 
pothese mit einer bestimmten Irrtumswahrscheinlichkeit abge- 
lehnt werden. 


Die 20 Probanden waren in zwei Gruppen aufgeteilt, sechs 
Testlisten wurden von der einen Gruppe bei einem Sıgnal-Rausch- 
Verhältnis von -5 dB S/N und von der anderen bei -9 dB S/N 
gemessen, vier Listen bei -9 dB S/N und -5 dB S/N. Daher muss 
der Friedman-Test viermal durchgeführt werden. Der Schranken- 
wert für n = 10 Stichproben und k = 6 Bedingungen bei 5 % Irr- 
tumswahrscheinlichkeit ist y2, = 10,76. Die errechneten Prüf- 
größen betragen für die ersten sechs Testlisten bei einem Signal- 
Rausch-Verhältnis von -5 dB S/N ve =4,47 und für -9 dB S/N 
Xz =4,01. Bet n = 10 und k = 4 ist XR =7,67, errechnet wur- 
den dagegen Xn = 3 für -5 dB S/N und XR = 3,96 bei einem 
Signal-Rausch-Verhiltnis von -9 dB S/N. 

Damit liegen die Prüfgrößen jeweils sehr deutlich unter den 
angegebenen Schrankenwerten für eine Irrtumswahrscheinlich- 
keit von 5 %. Die Aquivalenz der Testlisten kann daher auf dem 
5 %-Niveau nicht abgelehnt werden. 
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Abb. 2: L- Werte über alle Versuchspersonen gemittelt, sowie 
zugehörige Standardabweichungen aus den adaptiven Messun- 
gen zur Bestimmung des Trainingeffektes in Abhängigkeit von 
den einzelnen Doppellisten. 


Fig. 2: Mean L,-values and standard deviations of all subjects 
as a function of the double test list number. The same data as 
in Fig. ] are employed (measured by an adaptive procedure), 
but sorted in a different way. 
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Tab. 1: Verständlichkeiten (SV) der beschriebe- 


SV [%] bei Berechnet nen Evaluationsmessungen sowie daraus errech- 
nete Parameter der Diskriminationsfunktionen 

Testliste -9 dB S/N -5 dB S/N Ls [dB S/N] m[%/dB] für die einzelnen Testlisten. 
| 242 78.8 #1 353 Table 1: Speech intelligibility obtained from each 
2 21,0 81,2 -7,1 174 test list and 20 normal hearing subjects at the two 
3 23,4 794 -7,1 15,8 different signal-to-noise ratios -9 dB and -5 dB. 
4 23.8 788 =7,1 135 Based on these values, the parameters Ly, (i. e. 
5 21.6 78,2 7.0 16,0 signal-to-noise ratio corresponding to 50 % 
6 27,2 84,4 -75 167 intelligibility) and m (i. e. slope at Ly) were 
7 19.0 80.2 -7.0 17,8 computed and also listed. The last row gives the 
8 18,2 82,8 -7,0 19,2 average and standard deviation across lists. 
9 16.6 83,6 -7.0 20.3 
10 21.6 79,4 -7.0 16.5 
Mittelwert 21,7 80,7 Ue E, 
Standardabweichung 3.20 2,21 0.16 1.65 


Mittelwert von L, und m 


Für die 10 einzelnen Testlisten wurden die Gesamt-Diskri- 
minationsfunktionen unter Berücksichtigung der L.,-Verteilung 
der Einzelwörter nach dem Pegelangleich berechnet. Abbildung 3 
zeigt den Vergleich dieser Funktionen mit den über die Versuchs- 
personen gemittelten Meßwerten. Wie in Abbildung 3 deutlich 
zu sehen. ist der mittlere L.,-Wert der Evaluationsmessungen mit 
-7,1 dB S/N um 1,3 dB S/N höher als der bei der Optimierung 
des Testmaterials (siehe Wagener et al. 1999a) gemessene und 
für die theoretischen Berechnungen verwendete (-8.4 dB S/N), 
Dies ist auf das geringere Training der Versuchspersonen im 
Vergleich zu den hochgradig mit derartigen Messungen trainier- 
ten Versuchspersonen aus den Optimierungsmessungen zurück- 
zuführen. 
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Wird dieser Unterschied durch lineares Verschieben der Meß- 
werte um -1,3 dB S/N auf der x-Achse ausgeglichen, so erhält 
man Bild 4. Dieser Ausgleich bedeutet die Erhöhung des Sig- 
nal-Rausch-Verhältnisses des gesamten Tests um 1.3 dB S/N, die 
relativen Zusammenhänge wie z. B. die Steigung der Diskrimi- 
nationsfunktion werden durch dieses Vorgehen nıcht verändert. 
Die aufgrund der Optimierungsmessungen theoretisch erwartete 
Steigung der Diskriminationsfunktionen von m = 17,2 %/dB (vgl. 
Wagener et al. 1999a) stimmt hervorragend mit der mittleren 
gemessenen Steigung von m = 17,1 %dB überein (siehe auch 
Abb. 4). Die Erwartungen bezüglich anderer Streuparameter (z. B. 
Verständlichkeits- und Steigungsstreuung der Einzelwörter) konn- 
te wegen zu weniger Meßpunkte durch die Evaluationsmessun- 
gen allerdings nicht überprüft werden. 


Abb, 3: Aufgrund der Optimierungsmessungen theoretisch be- 
rechnete Diskriminationsfunktionen aller 10 Testlisten (vel. 
Wagener et al. 1999a) im Vergleich zu den Evaluationsmessun- 
gen: Die Diamanten kennzeichnen die über die 20 Versuchs- 
personen gemittelten Meßwerte für Jede der 10 Testlisten. Das 
Kreuz bezeichnet den daraus ermittelten mittleren L,-Wert der 
Evaluationsmessungen mit zugehörender Standardabweichung. 


Fig. 3: Expected discrimination functions for all 10 test lists 
based on the optimization measurements described by Wagener 
et al. (1999a). In comparison, the results of the current 
evaluation measurements are given: the diamonds denote the 
mean values of 20 normal-hearing subjects for each of the 10 
lists. The cross denotes the mean Ls, value of the evaluation 
measurements with its standard deviation. 
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Abb. 4: Wie Abb. 3 nach dem Ausgleich der unterschiedlichen 
Trainingssituation durch Verschieben der »erwarteten« Diskri- 
minationsfunktion. 


Fig. 4: Same as figure 3 taking a training effect of 1.3 dB into 
account and hence shifting the »expected« discrimination 
function by this amount, 


Anzahl der statistisch unabhängigen Satzteile, 
j Faktor 


Boothroyd und Nittrouer führten als ein Maß für die Vorher- 
sagbarkeit von Sätzen den j Faktor ein (Boothroyd und Nittrouer 
1988), der die Anzahl statistisch unabhängiger Teile (in diesem 
Fall statistisch unabhängige Wörter pro Satz) beschreibt: Über 
den Zusammenhang j= wird j aus der Wahrscheinlichkeit 
p, dab ein Satz komplett verstanden wurde und p,, daß ein Wort 
richtig verstanden wurde, berechnet. 


Ein großer j Faktor ist insbesondere für die adaptive Test- 
steuerung wichtig, da bei einem Trial ein größerer Informations- 
gewinn stattfindet als bei kleinem j Faktor. Bei vorgegebener Zeit 
werden mehr Informationen erhalten und somit ist die Meßge- 
nauigkeit höher. Bei den meisten anderen Satztests, wie z. B. dem 
Göttinger Satztest, liegt der j Faktor bei etwa 2. 


Aus den durch die Evaluation gewonnenen Meßdaten wurde 
der j Faktor des Wortmaterials bei den Signal-Rausch-Verhält- 
nissen von -5 und -9 dB S/N berechnet. Es ergab sich j = 4,29 
bei einem Signal-Rausch-Verhältnis von -5 dB S/N (Verständ- 
lichkeit: 80,7 %) und j= 3,18 für -9 dB S/N (Verständlichkeit: 
21,7 %). Die Vorhersagbarkeit der Sätze des Oldenburger Satz- 
tests entspricht denen des Satztests nach Hagerman: Für den 
schwedischen Test beträgt j = 2,92 bei einer Verständlichkeit von 
weniger als 25 % und j= +4,77 bei mehr als 82 % Verständlich- 
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keit (Hagerman 1996). Die Sätze sind somit nicht so vorhersag- 
bar wie die des Göttinger Satztests (J = 2,38 bei -4 dB S/N und 


j= 1.95 bei -8 dB S/N, vel. Kollmeier und Wesselkamp 1997). 


Die Werte der j Faktoren werden an gleichen Stellen auf den Diskri- 
minationsfunktionen verglichen, daher muß der Abstand zum je- 
weiligen L.,-Wert (beim Oldenburger Satztest: La = -7.1 dB S/N, 
beim Göttinger Satztest: La = -6,1 dB S/N) gleich sein. 


Diskussion 


Die Evaluation des Oldenburger Satztests mit einem unab- 
hängıgen Versuchspersonenkollektiv von Normalhörenden zeigte 
einen Trainingseffekt von maximal 2 dB S/N für untrainierte 
Versuchspersonen während einer etwa halbstiindigen Trainings- 
sitzung mit 12 adaptiv gesteuerten Testlisten. 


Die mittlere Sprachverständlichkeitsschwelle Ls der sich 
anschließenden Evaluationsmessungen kann als stationär ange- 
nommen werden, weil sie nicht niedriger liegt als der nach 12 
Trainingslisten (bzw. 6 Doppellisten) von den Versuchspersonen 
erreichte mittlere Pegel und weil sich während der Evaluations- 
messungen der /,,-Wert nicht mehr signifikant verschoben hat, 
Dieser mittlere La liegt für das hier verwendete Versuchsperso- 
nenkollektiv 1,3 dB S/N über dem Wert für hochgradig trainier- 
te Probanden aus den von Wagener et al. (1999a) vorgestellten 
Optimierungsmessungen. 


Die Steigung der einzelnen Testlisten von im Mittel 17 %/dB 
entspricht exakt den Erwartungen für die Steigung der Gesamt- 
Diskriminationsfunktion, die mit dem probabilitischen Modell 
(Kollmeier et al. 1992) aus der Einzelwort-Diskriminationsfunk- 
tion und der Verteilungsfunktion der wortspezifischen L.,-Werte 
errechnet wurde (Wagener et al. 1999a), 

Die Homogenität der Testlisten entspricht ebenfalls den Er- 
wartungen, dies wurde durch die geringen Standardabweichun- 
gen zwischen den Testlisten von La (-7,1 dB S/N#+0,16 dB S/N) 
und Steigung (17,1 %/dB+1,6 %/dB) sowie durch nicht signifi- 
kante Unterschiede im Friedman-Test gezeigt. 


Der Trainingseffekt wurde mit einem größtenteils ungeübten 
und mit akustischen Fragestellungen nıcht vertrauten Versuchs- 
personenkollektiv abgeschätzt. Dieses Kollektiv ist für die klini- 
sche Population reprisentativer als das Kollektiv der vorherigen 
Messungen, jedoch ist das Durchschnittsalter sicher niedriger als 
in der Klinik. 


Bei der hier eingehaltenen Mebgenauigkeit von 0,5 dB S/N 
für den Ls, liegt der Gewöhnungs- und Trainingsetfekt im Be- 
reich des 2 bis 4fachen der Genauigkeit, so dal} eine genaue Schät- 
zung des maximalen Trainingseffekts durchaus möglich ist. 
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Der Unterschied der stationären Schwelle von naiven und 
hochgradig trainierten Versuchspersonen läßt sich zum Teil da- 
durch erklären. dab die trainierten Probanden das Wortmaterial 
gut kannten. Die Messungen ähnelten daher einem geschlosse- 
nen Testverfahren, d. h. die Antworten können aus bestimmten 
Alternativen gewählt werden. Das bedeutet eine Beeinflussung 
des Ergebnisses durch die Ratewahrscheinlichkeit, die hier 10 % 
beträgt (es gibt 10 Alternativen für jedes Wort). 


Für trainierte Versuchspersonen wird durch die Annahme eines 
geschlossenen Testverfahrens der Bereich der Verständlichkeit 
(beim offenen Test 0 bis 100 %) auf 10 bis 100 % gestaucht. Eine 
Verständlichkeit von 50 % beim geschlossenen Verfahren ent- 
spricht daher im offenen Verfahren einer Verständlichkeit von 
45 %. Soll der unterschiedliche L.,-Wert auf diese Art erklärt 
werden. so müßte beim Einsetzen des Signal-Rausch-Verhältnis- 
ses von L=-8.4 dB S/N in die Funktion fil) aA 
(Modellfunktion aus Wagener et al. 19992) mit den gemittelten 
Parametern der Testlisten: L.,=-7,1 dB S/N, 7=4:m, „=40,171 F 
eine Verständlichkeit von 45 % resultieren. Es ergibt sich jedoch 
nur eine Verständlichkeit von ca. 32 %. Allein durch die Annah- 
me eines geschlossenen Testverfahrens für die geübten Versuchs- 
personen kann der Unterschied im L.,demnach nicht erklärt wer- 
den. 


Eine weitere Erklärung der besseren Schwellenwerte für die 
trainierte Probandengruppe kann die besondere »Hörerfahrung« 
dieser Personen geben. Die meisten waren Mitglieder der Ar- 
beitsgruppe »Medizinische Physik« der Carl von Ossietzky-Uni- 
versitat Oldenburg. die mit vielen Formen von akustischen Ex- 
perimenten vertraut sind. Die anderen trainierten Teilnehmer sind 
aufgrund von musikalischen Erfahrungen geprägt. Diese »Schär- 
fung« des Gehörs scheint eine recht große Rolle zu spielen, denn 
ein Teilnehmer der Evaluationsmessungen, der Erfahrung mit 
akustischen Experimenten und im besonderen auch mit Sprach- 
wahrnehmung hat. zeigte trotz gleichen Trainings signifikant 
bessere Schwellenwerte als die naiven Teilnehmer. 


Nimmt man für die hochgradig trainierte Versuchspersonen- 
gruppe allgemein konstant bessere Schwellenwerte an als für die 
ungeübten Teilnehmer der Evaluationsmessungen, so kann die 
Übereinstimmung der Meßwerte mit den Erwartungen festge- 
stellt werden, indem die Diskriminationsfunktion um diesen 
Schwellenunterschied verschoben wird. 


Eine dritte Einflußgröße auf den beobachteten Unterschied 
zwischen Optimierungs- und Evaluationsmessungen bestand 1m 
Störgeräuschpegel. Die Messungen zur Optimierung der Testli- 
sten wurden mit einem Störgeräuschpegel von 60 dB SPL durch- 
geführt (Wagener et al. 1999a). Bei der Evaluation wurde jedoch 
mit einem für die Evaluierung von Satztests üblichen Störschall- 
pegel von 65 dB SPL gemessen. Dies kann zusätzlich zu dem 
unterschiedlichen Trainingsgrad der Versuchspersonen ein Grund 
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für die Differenz des Ls von Vor- und Evaluationsmessungen 
von ca. 1.3 dB S/N sein. Jedoch ist die Sprachverständlichkeit 
im Wesentlichen vom dargebotenen Signal-Rausch-Verhaltnis 
abhängig. die Lautstärke des Störgeräuschs sollte lediglich einer 
»mittellauten« Lautheitsempfindung der Probanden entsprechen, 
dies trifft auf beide Störgeräuschpegel zu, so dab diesem Effekt 
keine größere Rolle zugewiesen wird. In weiteren Messungen 
soll dieser Effekt sowie der Einfluß beim Verwenden unterschied- 
licher Störgeräusche untersucht werden. 


Als Konsequenz aus dem Trainingseflekt empfiehlt sich für 
die praktische Anwendung des Tests die Durchführung von bts 
zu vier Trainingslisten. Bei einer angestrebten Mebgenauigkeil 
von I dB S/N reicht die Darbietung einer Trainings-Testliste aus, 
was einem Zeitaufwand von ca. 2 min entspricht. 


Der Friedman-Test zeigte die Aquivalenz der Testlisten. die 
aufgrund der Pegelangleiche (Wagener et al. 1999a) und dem 
verwendeten Sprachmaterial (Wagener et al. 1999b) erwartet 
wurde. 


Durch den Oldenburger Satztest werden daher 10 perzeptiv 
gleichwertige Testlisten A 10 Sätze und zwei Übungslisten be- 
reitgestellt. Gerade für adaptive Messungen empfiehlt sich je- 
doch die Verwendung von 30 Sätzen pro Liste. Hierdurch läßı 
sich eine angestrebte Genauigkeit von 0,5 dB S/N (Standardab- 
weichung des Lsa) gewährleisten (Brand 1998: Brand und Koll- 
meier 1996), Dies gilt auch, wenn die Steigung der Diskrimina- 
tionsfunktion aufgrund von Schwerhörigkeit der Versuchsper- 
son auf bis zu 10 %/dB absınken sollte. Bei noch flacheren Dis- 
kriminationsfunktionen, wie sie bei hochgradig Schwerhörenden 
auftreten können, verschlechtert sich die Genauigkeit, so dab ge- 
gebenfalls mehr als 30 Testsätze zur Messung erforderlich sein 
können. 


Aufgrund der Aquivalenz der 10 Testlisten können 120 ver- 
schiedene gleichwertige Tripellisten durch die Kombination der 
10 Testlisten erzeugt werden, so daß genügend Testmaterial zur 
Verfügung steht. 


Um den La und die Steigung in der Praxis durch Messen von 
Testlisten mit konstantem Sıgnal-Rausch-Verhältnis zu bestim- 
men, muß im Idealfall eine Testliste kurz unter- und eine etwas 
oberhalb des L., gemessen werden. Da der L bei der Messung 
nicht bekannt ist, benötigt diese Meßweise eine große Erfahrung 
des Audiomerristen, damit nicht zuviele Testlisten an unterschied- 
lichen Sıgnal-Rausch-Verhältnissen gemessen werden müssen. 
Demgegenüber haben adaptive Mebverfahren den Vorteil, dal 
ein Steueralgorithmus den jeweiligen Darbietungspegel des Sat- 
zes aufgrund der vorherigen Antwort der Versuchsperson aus- 
wählt (Brand und Kollmeier 1996), Das hat eine große Zeiter- 
sparnis und eine höhere Meßgenauigkeit zur Folge, Der Olden- 
burger Satztest hat zudem im Gegensatz zum Götttinger Satztest 
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den Vorteil eines hohen j Faktors, d. h. pro Zeiteinheit werden 
mehr unabhängige Test-Items getestet. Somit ist der Oldenbur- 
ger Satztest besonders gut für adaptive Meßverfahren geeignet. 


Schlußfolgerungen 


Die in diesem Beitrag beschriebenen Evaluationsmessungen 
bestätigen alle in Wagener et al. (1999b) dargestellten Erwartun- 
gen, die aus theoretischen Berechnungen der Eigenschaften des 
Tests auf Basis der Optimierungsmessungen resultierten. 


|. Es zeigte sich ein für die Praxis relevanter Gewöhnungs- und 
Trainingseffekt von maximal 2 dB S/N (Verringerung des Ls 
während der adaptiven Trainingsmessungen), der im wesent- 
lichen über die ersten beiden 20iger Listen hinweg stattfin- 
det. Bei einem zusätzlichen Zeitaufwand von ca. 5 min pro 
Messung kann und sollte der verfälschende Einfluß des Lern- 
effekts verringert werden. 


hm 


Der Unterschied im mittleren Z,, zwischen den Messungen der 
wortspezifischen Diskriminationsfunktionen (Wagener et al. 
1999a) und den Evaluationsmessungen von 1,3 dB S/N 
(Ls = -8.4 dB S/N bzw. -7,1 dB S/N) kann durch das quasi- 
geschlossene Testverfahren der ersten Messungen (mit trai- 
nierten Versuchspersonen) nur teilweise erklärt werden. Der 
Unterschied ist größtenteils durch den unterschiedlichen 
Trainingsgrad und die verschiedene »Hörerfahrung« der Ver- 
suchspersonen zu erklären. Eventuell haben zusätzlich die 
unterschiedlichen Störgeräuschpegel einen Einfluß auf die 
Meßergebnisse. Die Abhängigkeit des Ls vom Störschallpegel 
sollte daher in Zukunft für dieses Sprachmaterial untersucht 
werden, jedoch ist laut Literatur keine große Abhängigkeit 
zu erwarten. 


3. Die experimentell gefundene Steigung der Testlisten von 
17.1 %/dB stimmt mit der für diesen Test theoretisch möglı- 
chen (17.2 %/dB, aus Wagener et al. 1999a) überein. Diese 
hohe Steigung ermöglicht eine effiziente Bestimmung der 
Sprachverständlichkeit im Störgeräusch. Die geringen Stan- 
dardabweichungen von Ls und m der einzelnen Testlisten 
sowie der Friedman-Test zeigt die hervorragende Homoge- 
nität des Testmaterials. 
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4. Die 10 zusammengestellten Testlisten können zu 120 unter- 
schiedlichen Tripellisten zusammengestellt werden, die For- 
derung nach einer hohen Anzahl an Testlisten ist somit er- 
füllt. Zusätzlich können die Listen auch wiederholt gemes- 
sen werden, da sie aufgrund der semantisch nicht vorhersag- 
baren Struktur nicht im Gedächtnis behalten werden können. 
Schon während der Optimierungsmessungen wurde die di- 
rekt aufeinanderfolgende Darbietung derselben Testliste selbst 
bei überschwelligen Pegeln von den Versuchspersonen nicht 
bemerkt. 


5. Die Vorhersagbarkeit der Sätze ist sehr gering (j = 4,3 bei 
-5 dB S/N), so daß bei der Messung eines Trials ein hoher 
Informationsgewinn stattfindet. Daher eignet sich der Olden- 
burger Satztest besonders für adaptive Meßverfahren. 


6. Die in Wagener et al. (1999b) formulierten Anforderungen 
an den Satztest bezüglich der Durchführbarkeit im Störge- 
räusch, der Steilheit der Diskriminationsfunktion sowie der 
Anzahl und Wiederholbarkeit der Testlisten werden nach den 
Ergebnissen dieses Beitrags vom Oldenburger Satztest erfüllt. 


Unterstützt von der DFG, KO 942/13-1. 
Vielen Dank an A. Gorges und an die Probanden für die Durch- 
führung der Messungen. 


Der Oldenburger Satztest ıst erhältlich über das Hörzentrum 
Oldenburg. c/o Universität Oldenburg, Carl von Ossietzky-Str. 
9-11, 26111 Oldenburg, Tel: 0441 973 8997, Fax: 0441 973 8998. 


Corrigendum 


In der »Zeitschrift fiir Audiologie« 2/99, auf Seite 47 des Origi- 
nalbeitrages »Entwicklung und Evaluation eines Satztests für die 
deutsche Sprache — Teil Il: Optimierung des Oldenburger Satz- 
tests« von Kirsten Wagener, Thomas Brand und Birger Kollmeier 
(Universität Oldenburg) wurde aufgrund einer technischen Pan- 
ne eine Gleichung an der falschen Stelle plaziert. 

Gleichung (7) muß wie folgt lauten: 


MW ort 


Moges = 
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